基于模糊近似的强化学习方法研究

基于模糊近似的强化学习方法研究

作者:师大云端图书馆 时间:2021-06-30 分类:参考文献 喜欢:1199
师大云端图书馆

【摘要】强化学习是一种用于求解可以建模为马尔科夫决策过程问题的机器学习方法,其通过Agent与环境交互以获得最大累计奖赏的方式进行学习。当前强化学习面临的主要挑战和机遇是如何求解大规模状态或动作空间的问题。本文将模糊推理作为近似方法用于强化学习算法中,针对当前已有的基于模糊推理的强化学习算法的不足,提出几种改进的基于模糊推理和基函数优化的值函数近似算法:(1)针对传统的基于查询表或函数近似的Q值迭代算法在处理连续空间问题时收敛速度慢,且不能求解连续行为策略的问题,提出一种带有资格迹的基于双层模糊推理的时间差分算法(DFR-Sarsa(λ)),并从理论上分析其收敛性。算法的第一层推理使用模糊状态集合以计算连续动作,第二层推理使用模糊动作集合以计算Q值分量,最后结合两层推理计算连续动作空间中的Q值函数。(2)针对传统的基于模糊推理的强化学习算法存在收敛性能不足和对噪音干扰缺乏鲁棒性的问题,提出一种基于区间型二型模糊状态划分的Sarsa(λ)算法(IT2FI-Sarsa(λ)),并从理论上分析其收敛性。模糊规则的前件部分使用新颖的椭圆形二型模糊隶属度函数来划分连续状态空间,且该隶属度函数可以使降型存在闭合解。通过二型模糊推理获得Q值函数后,使用梯度下降方法更新规则的后件参数。实验表明,IT2FI-Sarsa(λ)算法具有较好的收敛性能,且对噪声干扰有鲁棒性。(3)针对当前强化学习方法在使用线性函数近似时,由于根据不准确先验知识设定基函数而造成的泛化性能不高的问题,提出一种带有自适应基函数的模糊值迭代算法(ABF-QI),并从理论上分析其收敛性。算法的基函数采用“自顶向下”的自适应更新方式,首先根据初始设定的基函数计算Q值函数,其次根据性能评价准则选择需要细化的基函数,最后采用分层更新的方式调整基函数的个数和形状。
【作者】穆翔;
【导师】刘全;
【作者基本信息】苏州大学,计算机应用技术,2014,硕士
【关键词】强化学习;值函数近似;模糊推理;二型模糊逻辑;基函数细化;

【参考文献】
[1]杨文华.协作分集技术及其在LTE上行系统中的应用研究[D].西安电子科技大学,通信与信息系统,2011,硕士.
[2]赵亚辛.基于BREW平台的CDMA手机设置应用的设计与实现[D].西安电子科技大学,电子与通信工程,2012,硕士.
[3]闫小舍,刘玉山,张建民.PPy/Mn_3O_4/graphene复合材料的制备及其电化学电容性能研究[A].河南省化学会.河南省化学会2014年学术年会论文摘要集[C].河南省化学会:,2014:1.
[4]程强.智慧教室主机控制系统关键技术研究[D].华中师范大学,计算机系统结构,2014,硕士.
[5]倪军,杨再林.低维硼碳纳米材料第一原理研究[J].中国科学:物理学力学天文学,2011,04:369-376.
[6]周李华.南京地区快递行业薪酬满意度研究[D].南京农业大学,物流工程,2012,硕士.
[7]潘星晔.《水浒传》女性观探究[D].曲阜师范大学,中国古代文学,2013,硕士.
[8]曹柬,陈雅,张雪梅.基于随机回收和有限库存的逆向供应链决策分析[J].中国机械工程,2014,10:1387-1394.
[9]谭宇.深圳市医疗保险费用分析及预测[D].华中科技大学,流行病与卫生统计学,2013,硕士.
[10]张少华.含有噻唑核心结构的AKT变构抑制剂的合成[D].华东理工大学,制药工程,2013,硕士.
[11]卢芳.强制反诉制度研究[D].郑州大学,诉讼法学,2013,硕士.
[12]张兵.有机小分子在铂基电极上吸附和反应的电化学和SERS研究[D].江西师范大学,有机化学,2004,硕士.
[13]尹旭庆.HIF-1 α和VEGF在恶性纤维组织细胞瘤中的表达及其与肿瘤微血管生成的关系[D].济南大学,外科学,2012,硕士.
[14]李瑞.基于Android的小型移动机器人系统设计[D].浙江理工大学,机械电子工程,2014,硕士.
[15]缪月琴.基于智能控制的隧道照明系统优化研究[D].中国地质大学(北京),控制工程,2014,硕士.
[16]张艺典.电视广告中的儿童形象研究[D].中国艺术研究院,广播电视艺术学,2014,硕士.
[17]傅宇.表面活性剂在梳型聚丙烯酰胺合成和磷酸钙纳米材料制备方面的研究[D].华东理工大学,材料科学与工程,2013,硕士.
[18]尹凯锋.在役压力容器缺陷数据库及评定决策支持系统研究[D].四川大学,2004.
[19]倪成洲,全海燕,陈刚,牛宏轩.一种高精度初至波二次定位新方法——搜索法[J].石油地球物理勘探,2008,02:131-133+157+121+246.
[20]袁鹏程.非营利组织财务治理与财务信息披露状况研究[D].华东理工大学,会计(专业学位),2014,硕士.
[21]孙雅谊.DAHP下调NOS通路和TP上调PI3K/Akt通路的抗炎抗凋亡作用对脑缺血的神经保护机制研究[D].浙江大学,人体解剖与组织胚胎学,2014,硕士.
[22]朱伟平.CBM实验高计数率MRPC探测器性能研究[D].三峡大学,凝聚态物理,2014,硕士.
[23]李晶.论夫妻间财产赠与协议[D].湖南师范大学,法律(专业学位),2013,硕士.
[24]汪志强,魏晓巍,齐铁铭.浅谈逆流罐式煅烧炉停烘炉操作[J].炭素技术,2012,05:49-50.
[25]张璨.基于对话的幼儿园科学教学活动教师提问研究[D].山东师范大学,教育(专业学位),2013,硕士.
[26]王兆梅.背诵对高中英语后进生高考完形阅读能力的影响[D].河北大学,外国语言学及应用语言学,2014,硕士.
[27]徐艳华.复杂产品的虚拟样机仿真技术研究[D].天津大学,机械制造及其自动化,2004,硕士.
[28]邓永波.新型工业化进程中的产业结构演进研究[D].中共中央党校,政治经济学,2013,硕士.
[29]班宏宝.汽车企业实施ERP项目可行性分析与风险评价研究[D].南京航空航天大学,管理科学与工程,2004,硕士.
[30]何丹.我国心搏骤停电话辅助心肺复苏现状及其影响因素研究[D].第二军医大学,护理学,2013,硕士.
[31]陈琛.化妆品说明书汉英翻译错误分析及对策[D].浙江工商大学,外国语言学及应用语言学,2013,硕士.
[32]柴松波.全日制专业学位硕士实践能力培养的研究[D].大连理工大学,高等教育学,2013,硕士.
[33]李冬冬.商业智能在审计软件系统中的应用研究[D].云南财经大学,计算机应用技术,2014,硕士.
[34]梁建萍.接受美学视角下汉语旅游文本修辞格英译研究[D].宁波大学,英语笔译(专业学位),2014,硕士.
[35]胡丽娜.时间:童话的“阿德涅彩线”——论童话的叙事结构[D].浙江师范大学,中国现当代文学,2004,硕士.
[36]王相君.机构持股对非公平关联交易抑制效果的研究[D].浙江工商大学,会计学,2014,硕士.
[37]曹文娇.三维能量多普勒超声评估早孕期绒毛间隙循环及预测药流结局的研究[D].复旦大学,妇产科学,2012,硕士.
[38]张天问.视频传感器的虚拟力部署算法[D].吉林大学,运筹学与控制论,2013,硕士.
[39]许成进.某航空机载产品制造企业生产物流系统优化研究[D].南京航空航天大学,管理科学与工程,2013,硕士.
[40]郭四海,金华.神经网络在外资管理决策支持系统中的应用[J].武汉理工大学学报(信息与管理工程版),2005,03:93-97.
[41]郭晓颖.浅析中国当代现实主义雕塑的意义[D].河北师范大学,学科教学,2012,硕士.
[42]孙午乐.主体自洽原则指导下的唐诗隐喻英译研究[D].宁波大学,英语语言文学,2014,硕士.
[43]孙承鉴,镇锡惠.《标准通用置标语言(SGML)的图书馆应用》项目及其应用[J].国家图书馆学刊.2000(01)
[44]朱江.羟基磷灰石与磷酸钙材料的制备及对α-磷酸三钙生物学效应的研究[D].吉林大学,高分子化学与物理,2014,硕士.
[45]张悦.在混杂中构建“第三空间”[D].河北大学,英语语言文学,2014,硕士.
[46]左东霞.锚索加密集支柱沿空成巷无煤柱开采研究[D].重庆大学,采矿工程,2014,硕士.
[47]钟禄平.萃取精馏分离甲醇和丙酮共沸物的研究[D].天津大学,化学工艺,2004,硕士.
[48]张敏灵,陈兆乾,周志华.SOM算法、LVQ算法及其变体综述[J].计算机科学,2002,07:97-100.
[49]曾维维.基于PLC的数控钢轨精磨机液压控制系统设计[D].西南交通大学,机械制造及其自动化,2013,硕士.
[50]李常瑜.中国新移民的基本特征研究[D].山东大学,社会学,2013,硕士.

相关推荐
更多